3  Lezione 4 - 03-10

Recall: il principale problema del modello booleano è il problema del feast or famine, ovvero, data una query ci possono essere restituiti troppi documenti, ma con una piccola modifica della stessa, potrebbe non essere restituito alcun documento. Per ottenere il giusto numero di risultati questo modello richiede all’utente delle skills avanzate che la maggior parte dell’utenza non possiede.

Esempio

Query: ides of march

Documento 1: caesar died in march

Documento 2: the long march

jaccard(Query, D1) = \dfrac{1}{6}

jaccard(Query, D2) = \dfrac{1}{5}

Il documento 2 è più rilevante del documento 1

  • Problemi dello Jaccard:
    • Non considera la frequenza dei termini
    • I termini rari sono più informativi dei termini frequenti^1. Questa informazione non viene tenuta in considerazione

^1 Un termine raro è più discriminante di un termine frequente, e permette di rendere efficiente query che li coinvolgono.